主动型

Talk预告 | ACL&Best Paper作者吉嘉铭: 大模型的主动型安全风险 - 模型抗拒对齐

他与大家分享的主题是:大模型的主动型安全风险 - 模型抗拒对齐，届时他将分享将视角从传统的安全对齐拓展至当前备受关注的欺骗性对齐，并从机理层面提出并剖析一种可称为“弹簧效应”的现象。该工作已被接收为ACL best paper。